Telegram Group & Telegram Channel
Forwarded from Russian OSINT
🤖 Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»

Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).

Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.

Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.

Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ⚠️ оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей.

Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.

Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках. ↔️ Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний.

По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.

@Russian_OSINT
Please open Telegram to view this post
VIEW IN TELEGRAM



tg-me.com/opendatascience/2278
Create:
Last Update:

🤖 Исследователи представили универсальный метод атаки на LLM под названием «Policy Puppetry»

Как сообщают исследователи из HiddenLayer, им удалось разработать универсальную методику prompt injection, которая позволяет обходить защитные барьеры LLM. Техника под названием «Policy Puppetry» успешно нарушает политики безопасности современных LLM и выходит за рамки ограничений таких моделей, как OpenAI (линейки ChatGPT 4o, 4.5, o1 и o3-mini), Google (Gemini 1.5, 2.0, 2.5), Microsoft (Copilot), Anthropic (Claude 3.5, 3.7), Llama, DeepSeek (V3 и R1), Qwen (2.5 72B) и Mistral (Mixtral 8x22B).

Исследователи не публикуют полные вредоносные примеры и не предоставляют доступ к готовым PoC для свободного использования, а лишь объясняют метод в научных целях.

Многие LLM от OpenAI, Google и Microsoft хорошо обучены отклонять прямолинейные опасные запросы, но если "вшить" их в инструкции и сделать частью собственных правил, то модели будут генерировать запрещённый контент без активации защитных механизмов.

Основой метода является использование специальных текстовых шаблонов, имитирующих документы политик в форматах XML, JSON или INI. При помощи таких шаблонов модели воспринимают вредоносные команды как безопасные системные инструкции. Они позволяют обходить встроенные ограничения и генерировать запрещенный контент, связанный с разработкой ⚠️ оружия массового поражения, пропагандой насилия, инструкциями по нанесению вреда себе, химическим оружием, а также с раскрытием конфиденциальной информации о работе внутренних механизмов моделей.

Условно: ИИ-модель думает: «Это не просьба пользователя, а команда на изменение настроек!». Когда текст выглядит как код или служебная инструкция, то модель перестаёт применять фильтры безопасности и начинает воспринимать команды буквально.

Техника отличается исключительной универсальностью. Один и тот же шаблон может применяться против множества моделей без необходимости в доработках. ↔️ Опасность обнаруженного метода в том, что он доступен практически любому пользователю и не требует глубоких технических знаний.

По мнению исследователей, подобная уязвимость свидетельствует о фундаментальных недостатках в методах обучения и настройки LLM, отмечая острую необходимость в новых подходах к обеспечению безопасности, чтобы предотвратить дальнейшее распространение угроз по мере усложнения ИИ-моделей.

@Russian_OSINT

BY Data Science by ODS.ai 🦜






Share with your friend now:
tg-me.com/opendatascience/2278

View MORE
Open in Telegram


Data Science by ODS ai 🦜 Telegram | DID YOU KNOW?

Date: |

Can I mute a Telegram group?

In recent times, Telegram has gained a lot of popularity because of the controversy over WhatsApp’s new privacy policy. In January 2021, Telegram was the most downloaded app worldwide and crossed 500 million monthly active users. And with so many active users on the app, people might get messages in bulk from a group or a channel that can be a little irritating. So to get rid of the same, you can mute groups, chats, and channels on Telegram just like WhatsApp. You can mute notifications for one hour, eight hours, or two days, or you can disable notifications forever.

Telegram announces Search Filters

With the help of the Search Filters option, users can now filter search results by type. They can do that by using the new tabs: Media, Links, Files and others. Searches can be done based on the particular time period like by typing in the date or even “Yesterday”. If users type in the name of a person, group, channel or bot, an extra filter will be applied to the searches.

Data Science by ODS ai 🦜 from jp


Telegram Data Science by ODS.ai 🦜
FROM USA